基于分箱组件实现连续特征离散化

特征离散是将连续的数据进行分段,使其变为多个离散化区间。针对该场景,PAI推出了分箱组件和数据转换模块组件。首先使用分箱组件将连续特征离散化,再使用数据转换模块将原始数据从连续值转换为离散值。本文为您介绍如何使用Designer组件进行连续特征离散化。

前提条件

操作步骤

  1. 进入Designer页面。

    1. 登录PAI控制台

    2. 在左侧导航栏单击工作空间列表,在工作空间列表页面中单击待操作的工作空间名称,进入对应工作空间内。

    3. 在工作空间页面的左侧导航栏选择模型开发与训练 > 可视化建模(Designer),进入Designer页面。

  2. 创建空白工作流,并进入工作流,详情请参见新建自定义工作流

    其中:

    • 工作流名称:配置为基于分箱组件实现连续特征离散化

    • 描述:配置为使用PAI提供的分箱组件,实现连续特征离散化

    • 可见范围:选择仅自己可见

  3. 构建工作流流程。

    1. 在左侧组件列表,将源/目标下的读数据表组件拖入画布中。

    2. 在左侧组件列表,将金融板块下的分箱数据转换模块组件拖入画布中。

    3. 将以上组件拼接为如下工作流。特征离散化实验

  4. 配置组件参数。

    1. 单击画布中的读数据表组件,在右侧面板,配置工作流数据源。

      页签

      参数

      描述

      表选择

      表名

      输入pai_online_project.iris_data

      分区

      该公共数据表为非分区表,因此分区复选框不支持选中。

      字段信息

      源表字段信息

      配置表名后,系统会自动同步该数据表的源表字段信息,无需手动配置。

    2. 单击画布中的分箱组件,在右侧面板,配置参数(仅配置如下参数,其他参数使用默认值即可)。

      页签

      参数

      描述

      字段设置

      特征列

      选择f1f2f3f4列。

      参数设置

      分箱个数

      配置为10,表示将连续特征离散化至10个区间中。

      分箱方式

      支持等频等宽自动分箱。使用自动分箱时,数据源必须包含label字段,且为二分类场景。本文以等频分箱为例。

    3. 单击画布中的数据转换模块组件,在右侧面板,配置参数(仅配置如下参数,其他参数使用默认值即可)。

      页签

      参数

      描述

      字段设置

      不进行转换的数据列

      选择type列,该列会原样输出。

      数据转换的类型

      选择Index

  5. 单击画布上方的运行按钮image

  6. 查看工作流运行结果。

    1. 工作流运行结束后,右键单击画布中的数据转换模块组件,在快捷菜单,单击查看数据 > 输出,即可查看离散化结果。image

    2. 右键单击画布中的分箱组件,在快捷菜单,单击我要分箱

    3. 单击待查看特征(以f1特征列为例)名称,即可查看该特征的分箱详情,如下图所示。分箱详情

    4. 单击图表页签,以图表的形式查看分箱结果。分箱结果的图表展示

相关文档

  • 关于算法组件更详细的内容介绍,请参见分箱数据转换模块

  • 您可以使用Designer完成其他的AI开发任务,关于Designer更详细的内容介绍,请参见Designer概述